7 research outputs found

    EVALITA Evaluation of NLP and Speech Tools for Italian - December 17th, 2020

    Get PDF
    Welcome to EVALITA 2020! EVALITA is the evaluation campaign of Natural Language Processing and Speech Tools for Italian. EVALITA is an initiative of the Italian Association for Computational Linguistics (AILC, http://www.ai-lc.it) and it is endorsed by the Italian Association for Artificial Intelligence (AIxIA, http://www.aixia.it) and the Italian Association for Speech Sciences (AISV, http://www.aisv.it)

    Die Kookkurrenz sprachlicher Strukturen

    No full text
    The study of cooccurrences, i. e. the analysis of linguistic units that occur together, has had a profound impact on our view of language. Not only has it contributed greatly to the insight that semi-preconstructed phrases and item-specific knowledge are central to how language works, but it has also led to improved dictionaries and teaching materials. Cooccurrences of various linguistic items have been studied under a variety of names, e. g. collocation, colligation or collostruction. While there are well-understood and fully worked out statistical models for the analysis of cooccurrences of pairs of words, no such model exists for cooccurrences of larger linguistic structures. This situation is remedied by the current work. Building on the well-understood 2 × 2 contingency tables and a graph-based representation of linguistic structures, we develop the generalized cooccurrence model, an explicit formal model for the statistical analysis of cooccurrences of arbitrary linguistic structures. Existing methods for the analysis of two-word cooccurrences and for collostructional analysis are shown to be simply special cases of the generalized cooccurrence model.Die Kookkurrenzforschung, also die Analyse des gemeinsamen Auftretens von sprachlichen Einheiten, hat unser Bild von Sprache maßgeblich beeinflusst. Sie hat nicht nur wesentlich zur der Erkenntnis beigetragen, dass „Halbfertigprodukte der Sprache“ (Hausmann, 1984: 398) und einzelwortspezifisches Wissen zentrale Elemente der Funktionsweise von Sprache sind, sondern hat auch zu besseren Wörterbüchern und Lernmaterialien geführt. Die Kookkurrenz von sprachlichen Einheiten wurde mit verschiedenen Ansätzen und unter verschiedenen Bezeichnungen wie Kollokation, Kolligation oder Kollostruktion erforscht. Während es für die Analyse von Zweiwortkookkurrenzen wohlverstandene und vollständig ausgearbeitete statistische Modelle gibt, fehlen solche Modelle für Kookkurrenzen von größeren sprachlichen Strukturen. Diese Lücke wird durch die vorliegende Arbeit geschlossen. Aufbauend auf den etablierten Vierfeldertafeln und einer graphbasierten Repräsentation sprachlicher Strukturen wird das verallgemeinerte Kookkurrenzmodell entwickelt, ein explizites formales Modell für die statistische Analyse von Kookkurrenzen beliebiger sprachlicher Strukturen. Es wird gezeigt, dass existierende Methoden zur Analyse von Zweiwortkookkurrenzen und zur Kollostruktionsanalyse lediglich Spezialfälle des verallgemeinerten Kookkurrenzmodells sind

    SentiKLUE: Updating a Polarity Classifier in 48 Hours

    No full text
    SentiKLUE is an update of the KLUE po-larity classifier – which achieved good and robust results in SemEval-2013 with a sim-ple feature set – implemented in 48 hours.

    "Delta" in der stilometrischen Autorschaftsattribution

    No full text
    Der Artikel stellt aktuelle stilometrische Studien im Delta-Kontext vor. Diskutiert wird, warum die Verwendung des Kosinus-Abstands zu einer Verbesserung der Erfolgsquote führt; durch Experimente zur Vektornormalisierung gelingt es, die Funktionsweise von Delta besser zu verstehen. Anhand von mittelhochdeutschen Texten wird gezeigt, dass auch metrische Eigenschaften zur Autorschaftsattribution eingesetzt werden können. Zudem wird untersucht, inwieweit die mittelalterliche, nicht-normierte Schreibung die Erfolgsquote von Delta beeinflusst. Am Beispiel von arabisch-lateinischen Übersetzungen wird geprüft, inwieweit eine selektive Merkmalseliminierung dazu beitragen kann, das Übersetzersignal vom Genresignal zu isolieren.In this article, we present current stylometric studies on Delta. (1) We discuss why the use of cosine similarity improves the rate of success; our experiments on vector normalization lead to a better understanding of how Delta works. (2) Based on a corpus of Middle High German texts, we show that metrical properties can also be used for authorship attribution. The degree to which Delta is influenced by non-normalized medieval spellings is also investigated. (3) Using a corpus of Arabic-Latin translations, we explore how selective feature elimination can be used to separate the translator signal from the genre signal
    corecore